Marco Trombetti

Будущее

Увеличить свои шансы на успех можно, если вовремя определять, предвидеть и использовать зарождающиеся мировые тренды. Легче всего угадывать эти тренды, если живешь в будущем. Но поскольку машину времени еще не изобрели, для экспериментов с будущим надо жить в настоящем такой жизнью, которая большинству людей будет казаться будущим. Вот вам примеры такой жизни: исследовательская лаборатория, инновационная компания или просто компания друзей с объединяющим всех интересом к технологиям.

Важно понимать мировые тренды. Расскажу по этому поводу одну небольшую историю из личного опыта.

Искусственный интеллект - это нечто, с одной стороны, будоражащее воображение, а с другой, пугающее. Естественные языки и перевод между ними - одна из самых трудноразрешимых задач, с которыми приходится сталкиваться вычислительным машинам. Естественный язык — это чрезвычайно плотный канал информации, которая переполнена смыслом. Для того чтобы понять такую информацию, помимо самих слов, нужно также понимать контекст.

Язык — это самое “человеческое”, что у нас есть, именно поэтому для машин - это настолько серьезный вызов.

Поэтому системы автоматического перевода развиваются так медленно. Но несомненно развиваются.

В Translated, переводческом сервисе, соучредителем которого я являюсь, мы применяли искусственный интеллект в течение последних 17 лет, чтобы помочь профессиональным переводчикам делать переводы лучше и быстрее. Мы старались создать симбиоз человека и машины. Мы добивались этого разными способами, но один очень важный подход заключался в том, чтобы для каждого предложения система автоматически предлагала предварительный перевод. Мы разработали инструмент перевода для профессиональных лингвистов, в котором все переводы в открытом доступе соединяются с искусственным интеллектом, способным предугадывать предложения, которые он раньше не видел. На этой основе мы построили свое решение с открытым исходным кодом MateCat.

Были и другие, более радикальные попытки, в которых задачи профессиональных “живых” переводчиков полностью передавались средствам автоматического перевода. Самый яркий пример — переводчик Google.

Помогая профессиональным переводчикам, мы получили возможность одновременно замерять прогресс искусственного интеллекта на протяжении многих лет.

Мы день за днем, месяц за месяцем и год за годом изучали и вычисляли, как часто переводчикам приходится исправлять перевод, рекомендованный искусственным интеллектом.

Еще в 2003 году при финансовой поддержке Европейской комиссии мы реализовали исследовательский проект, в рамках которого было переведено несколько сотен тысяч слов, который показал, что процент исправлений (при пост-редактуре1) для пар английский-итальянский и английский-французский составляет примерно 43%. В 2015 году процент исправлений для этих же языковых пар составлял уже 27%. Во второй раз мы использовали выборку из 50 миллионов слов, переведенных в MateCat. Благодаря применению нейронных сетей и мультимодального машинного перевода — системы перевода, способной подстраиваться под пользователя, — в 2018 году, по нашим оценкам, мы достигнем показателя исправлений в 22–26%.

Этот процесс постоянного совершенствования не остановить - он может порой замедляться, когда будет достигнут предел потенциала какой-то технологии и на её место придет новая. Двумя крупными вехами развития машинного перевода стали введение статистического перевода в 2006 г. и глубинное обучение, которое появилось в конце 2016 года.

Продолжая развиваться такими же темпами, когда мы сможем достигнуть той поры, когда исправлять машинный перевод не придется совсем?

Если посмотреть на цифры, похоже, что это может произойти уже где-то между 2030 и 2035 годом.

Однако есть еще один интересный факт, о котором мы часто забываем: люди не идеальны.

Мы проанализировали 20 миллионов слов текста в дословном машинном переводе, которые выдержали проверку лингвистами (так называемые “100%-ные совпадения”), и выяснилось, что предложеный другими лингвистами перевод имеет коэффициент исправлений 11%, а не 0%, как можно было бы ожидать. Это обусловлено тем, что errare humanum est («человеку свойственно ошибаться»), а также тем, что у каждого из нас есть свой уникальный стиль, и мы, как правило, акцентируемся на нем. Прежде чем говорить об уникальности, стоит определить, каков будет критерий ее оценки. Абсолютное совершенство? Лучший в мире переводчик? Или, наоборот, рядовой переводчик-профессионал?

Если нас устроит машина, которая умеет переводить лучше, чем среднестатистический профессиональный переводчик, тогда искомый результат 11% исправлений для обозначенных языковых пар будет достигнут даже раньше - я бы сказал, году к 2025. На мой взгляд, это пугающе скоро.

Я стал задумываться, не стоит ли прямо сейчас продать Translated, ведь рынок профессиональных переводов скоро очень сильно уменьшится. Или вместо этого попытаться “оседлать” эту перемену и получить таким образом еще более заманчивые возможности. В конце концов, количество необходимых людям переводов, скорее всего, будет только расти. Я ощущаю себя немного как Kodak во время перехода от пленочной фотографии к цифровой.

Тот факт, что я знаю об этом изменении, уже что-то, а потому я уже давно решил, что мы будем пытаться использовать эту перемену.

Весьма вероятно, что в будущем искусственный интеллект будет играть ключевую роль во всех сферах жизни. Обработка естественных языков - это самая сложная из стоящих перед машиной задач, однако прорыв в других сферах может случиться даже раньше - именно тут и нужно искать идеи для стартапов.

1Что понимается под пост-редактурой: для измерения процента необходимых изменений мы используем алгоритм, построенный по принципу неточного совпадения, на котором основаны многие другие программные решения для перевода. Редакционное расстояние на уровне слова с поправками на ошибки в пунктуации, регистре букв и форматировании.